长期以来,将物体检测推向开放量和几乎没有射击转移一直是计算机视觉研究的挑战。这项工作探讨了一种持续的学习方法,该方法使探测器能够通过多数据远见语言的预训练扩展其零/少量功能。我们使用自然语言作为知识表示,我们探讨了从不同培训数据集积累“视觉词汇”的方法,并将任务统一为语言条件的检测框架。具体而言,我们提出了一种新颖的语言感知探测器OMDET和一种新颖的培训机制。拟议的多模式检测网络可以解决多数据库联合培训中的技术挑战,并且可以推广到任意数量的培训数据集,而无需手动标签分类合并的要求。与单独训练相比,Coco,Pascal VOC和更宽的面部/行人的实验结果通过在关节训练中或更高的分数来证实了疗效。此外,我们对超过400万个独特的对象词汇进行了预先培训,并在ODINW的35个下游任务上评估了所得模型。结果表明,OMDET能够在ODINW上实现最新的微调性能。分析表明,通过扩展提出的预训练方法,OMDET继续改善其零/少量调整性能,这表明了进一步扩展的有希望的方法。
translated by 谷歌翻译
自我监督学习(SSL)已成为一种有希望的替代方法,可以为现实世界任务创建监督信号,从而避免了仔细的标签成本。 SSL对于无监督的问题(例如异常检测(AD))特别有吸引力,在该问题中,标记的异常为确保,难以模拟甚至不存在的异常。基于SSL的AD(SSAD)已使用了大量的增强功能目录,并且最近的工作观察到,增强类型对性能有重大影响。这项工作是由这些工作的动机,将SSAD置于更大的镜头下,并通过对许多测试台进行广泛的实验仔细研究了数据增强在AD中的作用。我们的主要发现是,自我统治是另一个迄今为止的模型超参数,应仔细选择数据中真实异常的本质。也就是说,增强和基础异常机制之间的一致性是SSAD成功的关键,并且在缺乏SSL的情况下,SSL甚至会损害(!)检测性能。除了提出另一种SSAD方法外,我们的研究为对该成长中的地区提供了更好的了解,并为未来的研究提供了新的方向。
translated by 谷歌翻译
视觉预读(VLP)模型最近成功地促进了许多跨模式下游任务。大多数现有作品通过比较微调的下游任务性能来评估其系统。但是,只有平均下游任务准确性才能提供有关每种VLP方法的优缺点的几乎没有信息,更不用说有关社区如何改善系统的见解。受清单进行自然语言处理的启发,我们引入了VL-CheckList,这是一个新颖的框架,以了解VLP模型的功能。所提出的方法将VLP模型的图像定位能力分为三类:对象,属性和关系,并使用新颖的分类法进一步分解这三个方面。我们进行了全面的研究,通过提出的框架分析了七个最近流行的VLP模型。结果通过揭示了仅在下游任务评估中看不见的模型之间的细粒度差异来证实所提出的方法的有效性。进一步的结果表明,在构建更好的VLP模型方面有希望的研究方向。数据和代码:https://github.com/om--ai-lab/vl-checklist
translated by 谷歌翻译
Bilevel optimization plays an essential role in many machine learning tasks, ranging from hyperparameter optimization to meta-learning. Existing studies on bilevel optimization, however, focus on either centralized or synchronous distributed setting. The centralized bilevel optimization approaches require collecting massive amount of data to a single server, which inevitably incur significant communication expenses and may give rise to data privacy risks. Synchronous distributed bilevel optimization algorithms, on the other hand, often face the straggler problem and will immediately stop working if a few workers fail to respond. As a remedy, we propose Asynchronous Distributed Bilevel Optimization (ADBO) algorithm. The proposed ADBO can tackle bilevel optimization problems with both nonconvex upper-level and lower-level objective functions, and its convergence is theoretically guaranteed. Furthermore, it is revealed through theoretic analysis that the iteration complexity of ADBO to obtain the $\epsilon$-stationary point is upper bounded by $\mathcal{O}(\frac{1}{{{\epsilon ^2}}})$. Thorough empirical studies on public datasets have been conducted to elucidate the effectiveness and efficiency of the proposed ADBO.
translated by 谷歌翻译
Entity Alignment (EA), which aims to detect entity mappings (i.e. equivalent entity pairs) in different Knowledge Graphs (KGs), is critical for KG fusion. Neural EA methods dominate current EA research but still suffer from their reliance on labelled mappings. To solve this problem, a few works have explored boosting the training of EA models with self-training, which adds confidently predicted mappings into the training data iteratively. Though the effectiveness of self-training can be glimpsed in some specific settings, we still have very limited knowledge about it. One reason is the existing works concentrate on devising EA models and only treat self-training as an auxiliary tool. To fill this knowledge gap, we change the perspective to self-training to shed light on it. In addition, the existing self-training strategies have limited impact because they introduce either much False Positive noise or a low quantity of True Positive pseudo mappings. To improve self-training for EA, we propose exploiting the dependencies between entities, a particularity of EA, to suppress the noise without hurting the recall of True Positive mappings. Through extensive experiments, we show that the introduction of dependency makes the self-training strategy for EA reach a new level. The value of self-training in alleviating the reliance on annotation is actually much higher than what has been realised. Furthermore, we suggest future study on smart data annotation to break the ceiling of EA performance.
translated by 谷歌翻译
In dense image segmentation tasks (e.g., semantic, panoptic), existing methods can hardly generalize well to unseen image domains, predefined classes, and image resolution & quality variations. Motivated by these observations, we construct a large-scale entity segmentation dataset to explore fine-grained entity segmentation, with a strong focus on open-world and high-quality dense segmentation. The dataset contains images spanning diverse image domains and resolutions, along with high-quality mask annotations for training and testing. Given the high-quality and -resolution nature of the dataset, we propose CropFormer for high-quality segmentation, which can improve mask prediction using high-res image crops that provide more fine-grained image details than the full image. CropFormer is the first query-based Transformer architecture that can effectively ensemble mask predictions from multiple image crops, by learning queries that can associate the same entities across the full image and its crop. With CropFormer, we achieve a significant AP gain of $1.9$ on the challenging fine-grained entity segmentation task. The dataset and code will be released at http://luqi.info/entityv2.github.io/.
translated by 谷歌翻译
图形数据库(GDB)启用对非结构化,复杂,丰富且通常庞大的图形数据集的处理和分析。尽管GDB在学术界和行业中都具有很大的意义,但几乎没有努力将它们与图形神经网络(GNNS)的预测能力融为一体。在这项工作中,我们展示了如何无缝将几乎所有GNN模型与GDB的计算功能相结合。为此,我们观察到这些系统大多数是基于或支持的,称为标记的属性图(LPG)的图形数据模型,在该模型中,顶点和边缘可以任意复杂的标签和属性集。然后,我们开发LPG2VEC,这是一种编码器,将任意LPG数据集转换为可以与广泛的GNN类直接使用的表示形式,包括卷积,注意力,消息通话,甚至高阶或频谱模型。在我们的评估中,我们表明,LPG2VEC可以正确保留代表LPG标签和属性的丰富信息,并且与与图形相比,与与图形相比,它提高了预测的准确性,而不管有针对性的学习任务或使用过的GNN模型,多达34%没有LPG标签/属性。通常,LPG2VEC可以将最强大的GNN的预测能力与LPG模型中编码的全部信息范围相结合,为神经图数据库铺平了道路,这是一类系统,其中维护的数据的绝大复杂性将从现代和未来中受益图机学习方法。
translated by 谷歌翻译
二进制神经网络(BNNS)对现实世界中嵌入式设备显示出巨大的希望。作为实现强大BNN的关键步骤之一,规模因子计算在减少其实价对应物的性能差距方面起着至关重要的作用。然而,现有的BNN忽略了实价重量和尺度因子的固有双线关系,从而导致训练过程不足引起的亚最佳模型。为了解决这个问题,提出了复发性双线性优化,以通过将固有的双线性变量关联到背面传播过程中,以改善BNNS(RBONN)的学习过程。我们的工作是从双线性角度优化BNN的首次尝试。具体而言,我们采用经常​​性优化和密度 - 列表来依次回溯稀疏的实价过滤器,该过滤器将经过充分的训练并基于可控的学习过程达到其性能限制。我们获得了强大的rbonn,在各种模型和数据集上的最先进的BNN上表现出令人印象深刻的性能。特别是,在对象检测的任务下,rbonn具有出色的概括性能。我们的代码在https://github.com/stevetsui/rbonn上进行开源。
translated by 谷歌翻译
接近周期性的模式(NPP)在人造场景中无处不在,由瓷砖图案组成,其外观差异是由照明,缺陷或设计元素引起的。良好的NPP表示对许多应用程序有用,包括图像完成,分割和几何重新映射。但是代表NPP是具有挑战性的,因为它需要保持全球一致性(瓷砖图案布局),同时保留局部变化(外观差异)。使用大型数据集或单图像优化斗争在一般场景上训练的方法以满足这些约束,而明确模型周期性的方法对周期性检测错误并不强大。为了应对这些挑战,我们使用基于坐标的MLP学习具有单图像优化的神经隐式表示。我们设计一个输入功能翘曲模块和周期性指导的补丁损失,以处理全球一致性和局部变化。为了进一步提高鲁棒性,我们引入了一个周期性建议模块,以在我们的管道中搜索和使用多个候选周期。我们在单个和多平面场景上展示了我们方法对500多个建筑物,架子,壁纸,地面和蒙德里安图案的有效性。
translated by 谷歌翻译
学习率是对神经网络培训有重大影响的最重要的超参数之一。学习率计划在实际实践中广泛使用,以根据预定义的时间表来调整学习率,以进行快速收敛和良好的概括。但是,现有的学习率时间表都是启发式算法,缺乏理论支持。因此,人们通常通过多个临时试验选择学习率计划,并且获得的学习率时间表是最佳的。为了提高获得的次级学习率计划的性能,我们提出了一个通用的学习率计划插件,称为学习率扰动(LEAP),可以将其应用于各种学习率计划,以通过引入一定的扰动来改善模型培训达到学习率。我们发现,通过如此简单而有效的策略,培训处理成倍地利用了平坦的最小值,而不是具有保证收敛的尖锐的最小值,从而提高了更好的概括能力。此外,我们进行了广泛的实验,表明使用LEAP培训可以使用各种学习率计划(包括恒定的学习率)来改善各种数据集对各种深度学习模型的性能。
translated by 谷歌翻译